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ТЕМАТИЧЕСКИЙ ПОИСК В ИНТЕРНЕТЕ: 
НАЗАД В БУДУЩЕЕ 


В основе современных поисковых машин, работающих в Интернете, 
лежат алгоритмы документального поиска, разработанные ещё в 60-х — 
70-х годах прошлого века. В то время документальные информационно- 
поисковые системы (ИПС) в первую очередь предназначались для по- 
иска научно-технической информации и основными их пользователями 
были инженеры и ученые. Вот что пишет в связи с этим разработчик 
системы Яндекс Илья Сегалович: «Но что же поменялось в действи- 
тельности за последние годы? Не алгоритмы и не структуры данных, 
не математические модели. Хотя и они тоже. Поменялась парадигма ис- 
пользования систем. Проще говоря, к экрану со строчкой поиска подсе- 
ли домохозяйка, ищущая утюг подешевле, и выпускник вспомогатель- 
ного интерната в надежде найти работу автомеханика» [1]. 

Другими словами, подключение к поиску информации широких масс 
населения коренным образом повлияло на развитие ИПС. Да, основные 
поисковые алгоритмы остаются прежними. Но, согласитесь, что поиск 
расписания электропоездов и поиск информации о рентгенолитогра- 
фии — две разные задачи. К сожалению, задачи тематического научного 
поиска уходят на периферию интересов разработчиков популярных по- 
исковиков Интернета. Так, Илья Сегалович пишет: «Мечты 60-х — 80-х 
об итеративном уточнении запросов, о понимании естественного языка, 
о поиске по смыслу, о генерации связного ответа на вопрос с трудом вы- 
держивают сейчас жестокое испытание реальностью» [1]. 

С другой стороны, небескорыстное желание владельцев известных 
поисковых машин привлечь как можно больше разнообразных пользова- 
телей приводит к новым проблемам. Как сказано в работе [2], все основ- 
ные технологические проблемы Интернета, которые мы сейчас видим и 
зачастую ощущаем на себе, имеют своей причиной то, что когда эти тех- 
нологии разрабатывались, никто из разработчиков (по их собственным 
признаниям) не представлял себе, что Интернет станет глобальной ин- 
формационной средой. 

Особое внимание следует уделить алгоритмам ранжирования выдачи 
(ранжирование по релевантности). 

Словарные ИПС способны выдавать списки документов, содержащие 
миллионы ссылок. Даже просто просмотреть такие списки невозможно, 
да и не нужно. Было бы удобно иметь возможность задать формальные 
критерии (хотя бы относительной) важности документов, с тем, чтобы 
наиболее важные документы попадали бы в начало списка. Все разра- 
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ботчики ИПС в настоящее время уделяют основное внимание именно 
алгоритму ранжирования полученных ссылок. 

Наиболее часто используемыми критериями при ранжировании в по- 
исковых машинах Интернета являются: 

— наличие слов из запроса в документе, их количество, близость к на- 
чалу документа, близость друг к другу; 

— наличие слов из запроса в заголовках и подзаголовках документов 
(заголовки должны быть специально отформатированы); 

— количество ссылок на данный документ с других документов; 

— «респектабельность» ссылающихся документов. 

Как видно из критериев ранжирования, реальный критерий реле- 
вантности документа — наличие слов из запроса — не так сильно вли- 
яет на его ранг в результатах поиска. С другой стороны, использование 
синтетических критериев дает возможность манипулирования результа- 
тами вычислений ранга страницы, с чем и борются все ИПС. Такая ситу- 
ация ведет к снижению качества поиска, поскольку потенциально более 
полезные документы неминуемо оттесняются своими «оптимизирован- 
ными» конкурентами в конец списка. Наверно, многие сталкивались с 
тем, что реально полезные ресурсы в поисковиках находятся на второй- 
третьей странице выдачи поискового запроса [2]. В случае тематическо- 
го поиска релевантные ссылки могут находиться и на 10-й, и даже на 
100-ой страницах выдачи. 

Интересный факт сообщает новостная служба портала «Открытые 
системы». 

Как показало исследование, проведенное специалистами Квинсленд- 
ского технологического университета и Университета Пенсильвании с 
помощью портала метапоиска Роэр|е.сот, крупнейшие поисковые си- 
стемы крайне редко выдают идентичный набор верхних строчек резуль- 
татов при поиске по одним и тем же запросам. Исследователи в общей 
сложности ввели около 19,3 тыс. запросов к Сооз]е, Уавоо, \УЛидо\з Глуе 
Зеагсй и АзК.сот. Совпадение первого результата во всех системах было 
выявлено только в 3,6% случаев. Совпадение первых трех не выпало ни 
разу, даже если не учитывать порядок следования результатов. В сред- 
нем менее 1% результатов первой страницы совпадало на всех четырех 
сайтах. Для сравнения, четыре года тому назад в аналогичном исследо- 
вании совпадения первого результата отмечались в 7% случаев [3]. 

В то же время, по данным компании Еоггеуег Кезеатсь [4]: 

е 90% пользователей находят новые сайты через поисковые системы; 

‚ работа с поисковыми системами — второй по популярности вид 
деятельности в Интернете после использования электронной почты; 

‚ 80% пользователей поисковых систем не смотрят результаты 
дальше первой страницы; 

‚ По сравнению с баннерной рекламой, посетители сайта в пять раз 
охотнее станут вашими клиентами, найдя ваш сайт через поисковую си- 
стему; 

е 55% онлайн покупок и заказов совершаются на сайтах, найден- 
ных через поисковые системы; 
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е четверо из пяти пользователей используют поисковые системы 
ежедневно. 

Другими словами, поисковые машины — один из самых важных ин- 
струментов работы с информацией в Интернете. Мы уже частично дали 
ответ на вопрос, почему поисковые машины Интернета не используют 
весь арсенал средств поиска документальной информации, разработан- 
ных во второй половине прошлого века. Одна из основных причин — 
смена категорий пользователей, а следовательно, смена типов запросов. 
С другой стороны, в настоящее время, судя по спискам использован- 
ных источников в статьях и книгах, ученые все чаще обращаются в гло- 
бальную сеть для поиска необходимой им информации. Таким обра- 
зом, тематические запросы снова становятся предметом головной боли 
разработчиков поисковых машин, и, следовательно, они вынуждены об- 
ращаться к опыту прошлых лет. Как пишет Сегалович, «все многообра- 
зие моделей традиционного информационного поиска принято делить 
на три вида: теоретико-множественные (булевская, нечетких множеств, 
расширенная булевская), алгебраические (векторная, обобщенная век- 
торная, латентно-семантическая, нейросетевая) и вероятностные. Булев- 
ское семейство моделей, по сути, — первое, приходящее на ум програм- 
мисту, реализующему полнотекстовый поиск. Есть слово — документ 
считается найденным, нет — не найденным» [1]. 

Далее приведены некоторые этапы развития моделей документаль- 
ного поиска: 

1. 1957 год. Т. Джойс и Р.М. Нидхэм предложили векторную модель 
поиска. 

2. 1960 год. М.Е. Марон и Дж.Л. Кунс предложили вероятностную 
модель поиска. 

3. 1968 год. Векторная модель реализована Герардом Сэлтоном 
(Сегага ЗаЦоп) в поисковой системе ЗМАВТ (Заюоп’$ Маз1са| Амютанс 
Кеблеуег оЁТех®). 

4. 1977 год. К.Е. Робертсон и К. Спарк-Джоунз обосновали и реали- 
зовали вероятностную модель поиска. 

5. 1988 год. Дж.В. Фурнас и С.Дирвестер разработали метод 
латентно-семантического индексирования. 

Опыт моделирования документального поиска, накопленный в про- 
шлом веке, постепенно начинает использоваться при разработке поис- 
ковых машин Интернета. Среди отечественных Интернет-поисковиков, 
использующих такой опыт, можно отметить системы Галактика-Зум 
(корпорация Галактика), Артефакт (компания Интегрум-Техно), №ета 
(МГУ). 

Как уже отмечалось выше, одной из основных проблем поисковых 
систем в Интернете является неэффективность алгоритмов ранжирова- 
ния найденных документов. Это во многом обусловлено тем, что поис- 
ковые запросы в среднем состоят всего из двух-трёх слов, т. е. просто 
не хватает исходной информации для эффективного ранжирования вы- 
дачи. В уже упомянутой ИПС $МАКТ проблема, связанная с короткими 
запросами, была успешно преодолена с помощью так называемой «об- 
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ратной связи по релевантности». При этом поиск проходит в несколько 
итераций. На каждом шаге итерации поисковый запрос расширяется за 
счет терминов, выделенных пользователем из понравившихся ему среди 
найденных на этом шаге документов. Заметим, что сам термин «ранжи- 
рование по релевантности» появился на фоне реализации обратной свя- 
зи по релевантности в системе ЗМАКТ [5]. 

Попытки реализации обратной связи по релевантности в Интер- 
нете осуществляются, например, в отечественной поисковой системе 
\УЕВ ИРБИС, работающей с массивами научной информации (ИНИОН, 
ГПНТБ). 

В заключение хочется отметить, что противоречие между коммер- 
циализацией и качеством поиска ИПС в глобальной компьютерной сети 
продолжает существовать. 

Вот, например, еще одна новость с портала «Открытые системы». 

В компании УаНоо надеются, что с переходом на новую поисковую 
технологию ей удастся восстановить позиции на рынке, где сейчас пре- 
обладает Сооз]е. В числе улучшений — упрощенный пользовательский 
интерфейс с меньшим количеством баннеров, функция поиска изобра- 
жений и модификация настроек (выбор одного из 30 поддерживаемых 
языков), поиск с учетом домена, страны и времени создания докумен- 
тов. Служба расположена по новому адресу: В р://пе\у.зеагсв.уаВоо.сот. 
Поисковая система основана на усовершенствованном варианте техно- 
логии компании шК®юпт, приобретенной УарВоо. Кроме того, система ча- 
стично полагается на технологии Сооз]е. Гривлечь внимание к порталу 
в Уайоо рассчитывают за счет совершенствования его служб, в чис- 
ле которых — спортивные результаты, желтые страницы, поиск по 
Гтетпе1-магазинам, знакомства, биржа труда и т. д. [6]. 
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